1.4 Stratification
further subsampling without replacement alters the statistic (...) of the sample.
「非復元でさらなるサブサンプリングをすると、サンプルの統計を変えてしまう」
統計を変えてしまう程度はサンプルサイズに反比例する
(理解として)サンプルサイズが小さいと統計を変えてしまう程度が大きい、ということか
When we randomly divide a labeled dataset into training and test sets, we violate the assumption of statistical independence.
「ラベル付きデータセットをランダムに訓練セットとテストに分けるとき、統計的独立性という仮定に違反してしまう」
例:iris dataset(50:50:50)をtrainとtestに分ける
trainとtestでクラス比率が異なってしまう
iris dataset自体: 33.3% / 33.3% / 33.3%
train 38% / 28% / 34%
test 24% / 44% / 32%
(反比例の例にもなっていると思われる)
さらに悪いことにtrainとは逆の方向に偏る
(trainを取った残りだから)
The problem becomes even worse if a dataset has a high class imbalance upfront, prior to the random subsampling.
「ランダムサンプリング以前に、クラスの非均衡の程度が高ければ、この問題はさらに悪くなる」
最悪のケースとして、テストセットに少数派クラスのインスタンスが1つも含まれないケースを指摘
推奨されるプラクティスが層化(stratification)
stratification is an approach to maintain the original class proportion in resulting subsets.
「結果としてできるサブセット(=訓練セットでもテストセットでも)でも、もともとのクラス割合を維持するアプローチ」
割合を維持するがランダムサンプリング
in my opinion, stratified resampling is usually beneficial in machine learning applications.
著者の意見として「層化リサンプリングは、たいてい利益をもたらす」
以下に対して
random subsampling in non-stratified fashion is usually not a big concern when working with relatively large and balanced datasets
「比較的大規模な均衡データセットに取り組むとき、層化しないやり方でのランダムサブサンプリングはたいてい大きな懸念とはならない」
層化サンプリングは実装しやすい
stratification has a positive effect on the variance and bias of the estimate in k-fold cross-validation